Second order similarity for exploring multilingual textual databases (Similarité de second ordre pour l'exploration de bases textuelles multilingues) [in French]
نویسندگان
چکیده
RÉSUMÉ Cet article décrit l’utilisation de la technique de similarité de second ordre pour l’identification de textes semblables au sein d’une base de rapports d’incidents aéronautiques mélangeant les langues française et anglaise. L’objectif du système est, pour un document donné, de retrouver des documents au contenu similaire quelle que soit leur langue. Nous utilisons un corpus bilingue aligné de rapports d’accidents aéronautiques pour construire des paires de pivots et indexons les documents avec des vecteurs de similarités, tels que chaque coordonnée correspond au score de similarité entre un document dans une langue donnée et la partie du pivot de la même langue. Nous évaluons les performances du système sur un volumineux corpus de rapports d’incidents aéronautiques pour lesquels nous disposons de traductions. Les résultats sont prometteurs et valident la technique.
منابع مشابه
Multilingual document clustering : state of the art (Construction de corpus multilingues : état de l'art) [in French]
Multilingual document clustering : state of the art Multilingual corpora are extensively exploited in several branches of natural language processing. This paper presents an overview of works in the automatic construction of such corpora. We address this topic by first providing an overview of different perceptions of comparability. We then examine the main approaches to similarity computation,...
متن کاملStability Analysis of Optimal Control Problems with a Second-Order State Constraint
This paper gives stability results for nonlinear optimal control problems subject to a regular state constraint of second-order. The strengthened Legendre-Clebsch condition is assumed to hold, and no assumption on the structure of the contact set is made. Under a weak second-order sufficient condition (taking into account the active constraints), we show that the solutions are Lipschitz continu...
متن کاملMultilingual Compound Splitting (Segmentation Multilingue des Mots Composés) [in French]
Résumé La composition est un phénomène fréquent dans plusieurs langues, surtout dans des langues ayant une morphologie riche. Le traitement des mots composés est un défi pour les systèmes de TAL car pour la plupart, ils ne sont pas présents dans les lexiques. Dans cet article, nous présentons une méthode de segmentation des composés qui combine des caractéristiques indépendantes de la langue (m...
متن کاملUsing a co-similarity approach on a large scale text categorization task
This paper presents a framework we developed for the second Large Scale Hierarchical Text Categorization challenge LSHTC2 . The main idea is to propose a method allowing to deal with the terms variability among the categories in order to be able to find similarities between collections of documents belonging to the same category but having few common terms. Thus, we used a co-similarity based a...
متن کاملA non-linear second-order stochastic model of ocean surface waves
− This paper deals first with the mathematical formulation of a non-linear second-order stochastic model of free irrotational ocean surface wave on deep water. Then, the case of wave motion of zero bandwidth is treated to illustrate the model. On the basis of the usual hydrodynamic equations, the formulation is made by successive applications of the harmonic decomposition and the so-called Wien...
متن کامل